Fouille de règles d'annotation pour la reconnaissance d'entités nommées
نویسندگان
چکیده
Like many NLP tasks, the question of Named Entity Recognition can be adressed either using a symbolic or a data-centered approach. In this paper, we present a hybrid approach which consists in the adaptation of data mining techniques. Our system, mXS, relies on a sequential hierarchical text mining techniques. It implements a data-centered approach to extract symbolic patterns. Besides, mXS relies on an original strategy of recognition which consists in detecting separately the begining and the ending of entities. This strategy is robust on noisy data, especially when speech disfluences or recognition errors occur. Our system has participated to the ETAPE French-speaking evaluation campaign over conversational speech. This paper describes mXS and reports results obtained on reference data (ESTER 2 and ETAPE). MOTS-CLÉS : reconnaissance d’entités nommées, fouille de données, règles d’annotation.
منابع مشابه
Adaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]
RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...
متن کاملMining Partial Annotation Rules for Named Entity Recognition (Fouille de règles d'annotation partielles pour la reconnaissance des entités nommées) [in French]
Mining Partial Annotation Rules for Named Entity Recognition During the last decades, the unremitting increase of numeric data available has led to a more and more urgent need for efficient solution of information retrieval (IR). This paper concerns a problematic of first importance for the IR on linguistic data : the recognition of named entities (NE) on speech transcripts issued from radio or...
متن کاملCadre d'évaluation de systèmes de reconnaissance d'entités nommées spatiales
RÉSUMÉ. La reconnaissance d’entités nommées est une tâche de l’activité d’extraction d’information dans des corpus textuels. Des systèmes de reconnaissance d’entités nommées spatiales sont très largement utilisés, mais souvent sans en connaître les forces et faiblesses. C’est pourquoi nous proposons le cadre d’évaluation SNERBM (Spatial Name Entity Recognition BenchMark) comme référentiel commu...
متن کاملExtraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques
Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...
متن کاملExtraction et identification d'entités complexes à partir de textes biomédicaux
Résumé. Nous présentons ici un système d’extraction et d’identification d’entités nommées complexes à l’intention des corpus de spécialité biomédicale. Nous avons développé une méthode qui repose sur une approche mixte à base d’ensemble de règles a priori et de dictionnaires contrôlés. Cet article expose les techniques que nous avons mises en place pour éviter ou minimiser les problèmes de syno...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- TAL
دوره 54 شماره
صفحات -
تاریخ انتشار 2013